Qu'est-ce que c'est ?
Les ontologies telles qu'on les emploie en informatique (car le concept est philosophique avant tout) ont d'abord été mises au point pour l'intelligence artificielle. Leur objectif est de décrire ce qui existe et la définition formelle est assez complexe mais je vais m'efforcer de présenter les choses plus simplement.
Dans sa définition, une ontologie est un ensemble structuré de termes et de concepts d'un domaine particulier en précisant les relations entre ces termes et leurs propriétés. Chaque terme d'une ontologie doit posséder une définition pour être sûr de la signification qui y est associée. Une ontologie présente une structure hiérarchique et l'ensemble des termes est ancré par un terme de haut niveau, la racine. Concernant les relations, le lien de base est un lien d'héritage et il existe d'autres liens : composition, exclusion, etc.
Par exemple, l'ontologie qui doit être la plus connue en biologie est la Gene Ontology. Elle s'attache à décrire ce que sont les gènes et leurs produits avec 3 espaces de noms différents (3 sous-parties de l'ontologie) : les fonctions moléculaires, les compartiments cellulaires et les processus biologiques. La cellule (terme cell) est définit comme suit : c'est l'unité structurale et fonctionnelle élémentaire de tout organisme et elle inclut la membrane plasmique et toute autre structure externe comme une paroi ou une enveloppe cellulaire (traduit librement de : cell dans AmiGO browser). Dans un autre registre (mais que je connais mieux), la Plant Ontology permet de décrire l'anatomie, la morphologie et les stades de développement des végétaux. Cette ontologie possède le terme fruit auquel est associé pas moins de 58 synonymes ! Et oui, on peut parler de légume, de graine, de drupe ou d'achène mais tout cela correspond au même terme dans l'ontologie. A noter que l'ensemble des synonymes est une propriété du terme. Une relation particulière dans la Plant Ontology est la relation develops_from qui permet de faire le lien entre des structures végétales au cours des phases de développement : le fruit se développe à partir d'un gynoecium (plus communément appelé pistil).
Au niveau de la visualisation, on peut représenter une ontologie de 2 manières différentes : soit une arborescence (comme dans un navigateur de fichier), soit un graphe. L'arborescence offre une représentation qui permet de voir facilement les relations hiérarchiques entre les termes tandis que la représentation sous forme de graphe est plus adaptée pour la visualisation des autres types de relations.
A quoi ça sert ?
Un des intérêts de faire une ontologie est d'avoir une référence commune pour l'utilisation d'un vocabulaire commun dans le domaine qui nous concerne. Toujours pour reprendre l'exemple de la Gene Ontology, elle est très largement utilisée pour l'annotation de génomes afin d'harmoniser les caractéristiques associées aux gènes quelque soit l'espèce. Ensuite, encore grâce à ce vocabulaire, lorsqu'on a besoin de rechercher un gène ou une fonction particulière, il suffit d'utiliser le GO Term correspondant. Ainsi, la Gene Ontology est utilisée par de nombreux logiciels et base de données qui ont besoin de concepts sur les gènes (voir cette page d'outils) et cela facilite leur prise en main pour les utilisateurs car ils n'ont besoin de connaître que cette référence.
Pour pousser un peu plus loin cet aspect de description, les ontologies sont aussi très souvent liées au concept de métadonnées. Les métadonnées sont des données descriptives qui sont associées à des données afin d'y ajouter de l'information, de la connaissance. Dans ce cadre, les ontologies trouvent leur place très facilement ! Les termes d'une ontologie peuvent être utilisés directement afin de définir un ensemble de métadonnées pour décrire un organisme ou une série de mesures expérimentales par exemple. Il existe même des bases de données qui reposent sur des ontologies : la base de données Chado faisant partie du projet GMOD possède un module central qui contient les termes de plusieurs ontologies (Sequence Ontology, Gene Ontology, Relationship Ontology au moins) et permet de stocker des données génomiques de manière très adaptable sur des gènes de résistance, sur un insecte ravageur ou encore sur le pathogène de la tuberculose. Même si chaque application a des caractéristiques particulières, la souplesse et la puissance des ontologies permettent d'adapter la base de données.
Un autre aspect est qu'on peut utiliser des outils de raisonnement sur une ontologie. En effet, en plus des éléments purement descriptifs que constituent les termes et leurs relations, une ontologie comprend des règles de raisonnement et il existe des algorithmes permettant de parcourir le graphe en suivant les relations et les contraintes entre les termes. Ceci est plutôt utilisé en intelligence artificielle mais beaucoup moins en biologie.
Où les trouver ? Comment les consulter ?
Dans le domaine de la biologie (et plus particulièrement du biomédical), il existe des répertoires qui rassemblent les ontologies :
- Bioportal : l'accès à des ontologies du domaine biomédical répertoriées par le NCBO
- OBO Foundry : autre répertoire d'ontologies du domaine biomédical
- Crop Ontology : répertoire dédié à la biologie végétale
Même si les ressources que j'ai donné sont associées à une thématique spécifique, les ontologies sont parfois réutilisables : par exemple, sur OBO Foundry, on pourra retrouver des ressources sur des mesures expérimentales en spectrométrie de masse ou en imagerie qui peuvent être reprises dans d'autres disciplines. On trouvera aussi des moyens de décrire des protocoles ou des expériences qui sont assez génériques. D'ailleurs c'est un point important pour cette forme de représentation d'être réutilisable dans différents cas et il arrive de trouver des ontologies dites de "haut niveau" qui contiennent des concepts génériques et d'autres de "bas niveau" qui sont plus spécialisées.
Sur ces sites, vous pourrez télécharger les ontologies (au format owl ou obo) et ensuite les explorer grâce à des logiciels spécialisés comme, par exemple, OBO-Edit ou Protégé suivant le format proposé. Ces logiciels permettent de naviguer à travers une ontologie mais aussi de les modifier ou d'en créer une nouvelle.
L'initiative de la Crop Ontology est très intéressant car ce répertoire propose de développer des ontologies adaptées pour chaque genre ou espèce végétale à partir d'ontologies de référence : la Plant Ontology (encore !) et la Plant Trait Ontology. En effet, si la généralisation de certains domaines est possible, il arrive que vouloir faire entrer de "force" des concepts dans un terme qui ne correspond pas soit compliqué et surtout lui fasse perdre du sens.
Pour terminer cette introduction rapide, une ontologie n'est pas figée dans le temps. Pour celles qui sont maintenues par des consortiums, la participation de tous les membres et les progrès dans le domaine concerné mènent à modifier la structure ou le contenu (définition ou autre propriété) afin de garder une référence fiable et utilisable. La présentation que j'ai faite ici ne présente que quelques aspects de ce mode de représentation, ce sont des outils très puissants qui reposent sur un formalisme très poussé et qui s'appliquent à des domaines très variés, pas seulement en biologie.
Merci aux relecteurs : Clem_, ZaZo0o et Yoann M.
Pour aller plus loin
Page wikipedia anglaise : http://en.wikipedia.org/wiki/Ontology_%28information_science%29
Gruber, Thomas R. (June 1993). "A translation approach to portable ontology specifications" (PDF). Knowledge Acquisition 5 (2): 199–220.
Conseils pour commencer une ontologie : http://www.ksl.stanford.edu/people/dlm/papers/ontology-tutorial-noy-mcguinness-abstract.html
Laisser un commentaire